Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение

🎯 Фишка инструмента: топ-5 библиотек Python для EDA (разведочного анализа данных)

EDA (Exploratory Data Analysis) — это важнейший этап анализа данных, помогающий понять структуру, закономерности и аномалии в данных перед моделированием. Ниже — библиотеки, которые максимально ускоряют и упрощают этот процесс.

1️⃣

pandas\_profiling

import pandas_profiling  
report = pandas_profiling.ProfileReport(df)  
report.to_file("eda_report.html")

🟪 Генерирует полноценный HTML-отчёт по DataFrame.
🟪 Показывает распределения, корреляции, пропущенные значения, типы данных и многое другое.
🟪 Отличный способ получить обзор по данным всего за пару строк кода.

2️⃣

Sweetviz

import sweetviz  
report = sweetviz.analyze(df)  
report.show_html("sweetviz_report.html")

🟪 Создаёт красивый визуальный EDA-отчёт.
🟪 Можно сравнивать два набора данных (например, обучающую и тестовую выборки).
🟪 Очень полезен для выявления смещений и различий между выборками.

3️⃣

D-Tale

import dtale  
dtale.show(df)

🟪 Открывает DataFrame в веб-интерфейсе прямо в браузере.
🟪 Позволяет фильтровать, сортировать, строить графики и смотреть статистику без написания кода.
🟪 Идеален для быстрой визуальной разведки данных.

4️⃣

Skimpy

import skimpy  
skimpy.clean_columns(df)  
skimpy.scan(df)

🟪 Очищает названия столбцов (удаляет пробелы, приводит к удобному формату).
🟪 Показывает компактную сводку: типы, пропуски, уникальные значения и т.д.
🟪 Очень лёгкая и быстрая библиотека — минимализм и эффективность.

5️⃣

AutoViz

from autoviz.AutoViz_Class import AutoViz_Class  
AV = AutoViz_Class()  
AV.AutoViz("your_file.csv")

🟪 Автоматически определяет тип переменных и строит графики: распределения, тренды, связи между переменными.
🟪 Работает напрямую с CSV и Pandas DataFrame.
🟪 Подходит для быстрого первичного анализа без ручного выбора визуализаций.

Библиотека дата-сайентиста #буст

Please open Telegram to view this post

VIEW IN TELEGRAM

www.tg-me.com/sg/Библиотека дата сайентиста | Data Science Machine learning анализ данных машинное обучение/com.dsproglib/6411

2.1K viewsMay 2 at 07:00

tg-me.com/dsproglib/6411

Create: 2025-05-02
Last Update: 2025-05-30 07:33:00

import pandas_profiling  
report = pandas_profiling.ProfileReport(df)  
report.to_file("eda_report.html")